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摘 E: 子 序 列 查询 技术 在 金融 、 商 业 、 医 疗 等 领域 均 有 重要 应 用 ， 但 因 DTW (dynamic time warping) 等 相似 性 
比 对 算法 的 时 间 复 杂 度 较 高 ， 子 序列 长 度 对 检索 时 间 影 响 很 大 ， 限 制 了 数据 集 上 长 子 序列 检索 的 效率 。 针 对 这 一 问 
题 ， 提 出 一 种 子 序 列 快 速 查询 算法 。 该 算法 首先 对 数据 集中 特定 长 度 下 所 有 子 序列 进行 分 组 并 标记 出 代表 性 子 序列 ; 
然后 在 查询 时 将 查询 序列 切 分 成 定 长 的 小 段 序列 ， 并 用 DTW 算法 确定 与 小 段 序列 相似 的 代表 子 序列 候选 集 ; 最 后 
对 候选 集 进行 序 列 拼 接 ， 获 取 查 询 结果 序列 。 实 验 表 明 新 算法 效率 较 典 型 算法 提高 约 10 倍 。 
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Fast subsequence query algorithm based on short sequence grouping and assembling strategy 


Fan Chunlong':?, Wang Jingyun'?, Teng Yiping"?, Ding Guohui'? 
(1. School of Computer, Shenyang Aerospace University, Shenyang 110136, China; 2. Large-scale Distributed System 
Laboratory in Liaoning Province, Shenyang 110136, China) 


Abstract: Subsequence query technique has important applications in several fields such as finance, commerce, and 
healthcare. However, due to the high time complexity of similarity comparison algorithms such as Dynamic Time Warping 
(DTW) , the length of subsequence has a great influence on the retrieval time, which limits the efficiency of long 
subsequence retrieval on data sets. To the end, we present a fast subsequence query algorithm based on short sequence 
grouping and assembling strategy. In this algorithm, we first separate all subsequences, which are in a given length, in the 
data set into groups and mark out the representative subsequence for each group. Then, during the query processing, the 
query sequence is cut into small query sequences in a fixed length, and using DTW algorithm we compute the candidate sets 
of subsequences, of which the representative subsequence has a high similarity with the small query sequences. Finally, we 
assemble all the sequences in the candidate sets to derive the query result sequences. Experiments show that the efficiency 
ofthe new algorithm is about 10 times higher than that of the typical algorithm. 

Key words: sequential data query; dynamic time warping; subsequence 


0 引言 为 N*n(n-1)2. fA, RA UCR 时 间 序 列 数据 集中 的 
C a StarLightCurves 基准 数据 个 数 为 9 236， 每 条 序列 的 长 度 为 
和 时 间 序 列 数据 是 指 随 着 时 间 变 化 而 形成 的 有 序 的 数据 列 1 024， 所 以 该 数据 集 包 含 的 子 序列 个 数 为 4.83* 10 ， 而 

三 表 中 简称 时 序数 据 (time series)。 时 序数 据 反 映 了 事物 或 ”的 数据 集 一 般 会 比 此 数据 大 三 个 数量 级 ， 显 然 ， 对 所 有 子 序 
事件 随时 间 变 化 的 状态 ， 序 列 中 的 每 个 时 间 点 都 可 以 用 数 人 列 进行 相似 性 比较 是 不 切实 际 的 。 为 避免 数据 量 过 大 而 导致 
或 者 符号 来 表示 。 时 间 序 列 数 据 广泛 存在 于 金融 、 商 业 、 系统 性 能 下 降 ， 需 要 将 数据 表示 成 低 维 的 形式 。 常 见 的 表示 
药 、 气 象 等 应 用 领域 中 口 , 对 其 的 数据 挖掘 在 股票 价格 预测 、 方法 包括 离散 传 里 叶 变换 (DFT) 中、 离散 小 波 变换 DWT) 
遗传 物质 分 析 、 气 象 预测 等 领域 均 有 较为 广泛 的 应 用 B]。 序 。” 09、 奇异 值 分 解 CSVDO 00 和 分 段 累 积 近 似 (PAA) 02 等 。 


IIT 


列 数据 查询 是 时 间 序 列 挖掘 问题 中 基础 且 重 要 的 问题 ， 本 文 ”这 些 方法 虽然 可 以 保留 大 部 分 原 序列 所 携带 的 特征 信息 ， 但 

重点 关注 在 大 型 时 序数 据 中 不 同 长 度 子 序列 的 查询 情况 。 不 是 将 效率 作为 其 主要 目标 ， 因 此 不 适用 于 大 型 数据 集 。 
距离 度量 是 序列 查询 技术 的 基础 。 欧 氏 距 离 (ED) 因 其 范围 搜索 和 最 近邻 搜索 外 是 序列 查询 的 主要 目标 。 通 过 

计算 简单 且 高 效 , 是 目前 最 常用 的 距离 计算 方法 之 一 中 ]。 其“ 聚 类 方法 寻找 出 每 一 类 的 代表 ， 进 而 利用 代表 进行 查询 。 这 


他 主流 的 距离 度量 方法 有 动态 时 间 规 整 DTW) Ul, E EA ”类 方法 主要 包括 最 近邻 质心 分 类 器 [和 K-means 聚 类 。 文 献 
共 子 序列 (LCSS) 由 、 实 序列 编辑 距离 EDR) 中 和 实 补 偿 [14] 使 用 数据 编辑 的 方法 ， 既 保持 了 原始 数据 以 确保 相似 性 


编辑 距离 CERP) 四。 这 些 度量 方法 都 具有 很 强 的 鲁 棒 性 ， 查询 准确 性 ， 又 提高 了 分 类 速度 。 文 献 [15] 介 绍 了 利用 DTW 
支持 时 序 偏 移 和 不 等 长 序列 数据 的 计算 。 算法 构建 聚 类 ， 以 及 通过 改进 密度 峰值 的 算法 以 提高 聚 类 性 


时 间 序 列表 示 是 提高 查询 效率 的 主要 方法 。 时 间 序 列 数 能 。 然 而 该 方法 的 目标 是 聚 类 ， 而 不 是 相似 性 查询 ， 这 与 
据 普遍 存在 维度 高 和 数据 量 大 的 特点 , 对 于 包含 N 条 时 间 序 。” 前 的 工作 不 符 。 
列 数据 集 ， 每 条 序列 长 度 为 n， 因 此 需要 计算 的 子 序列 总 数 前 ,最 先进 的 查询 算法 (online exploration of time series， 
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题 ， 尤 其 是 在 查询 长 子 序 珊 
询 结果 。 然 而 某 些 系统 以 时 


缺乏 实用 性 。 


查询 效率 Pal。 


本 文 对 现 有 


与 查询 效率 之 间 难 以 权衡 的 问 
lI, ONEX 算法 很 难 快速 返回 查 
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利用 ED 距离 构建 一 个 紧凑 型 的 空间 ， 然 后 在 这 种 紧凑 空间 
上 处 理 基 于 DTW 距离 进行 查询 。 


| 间 为 代价 来 提高 查询 的 准确 率 07]， 
文献 [18] 和 文献 [19] 利 用 DTW 算法 将 子 序列 查 


询 转 换 为 向 量 查 询 ， 但 是 该 方法 需要 提供 诸多 参数 ， 限 制 了 


的 查询 算法 进行 改进 ， 提 出 一 种 快速 查询 长 


子 序列 的 方法 MONEX (modify online exploration of time 


series)。MONEX 算法 将 候选 序列 分 成 子 序列 ， 然 后 根据 子 
序列 之 间 的 相似 性 关系 进行 编码 以 支持 快速 查询 子 序列 。 
于 对 所 有 不 同 长 度 子 序列 之 间 相 似 性 关系 进行 编码 是 不 可 行 


于 对 所 


的 点 对 点 距离 (如 欧 氏 距离 ) 进行 相 
该 方法 对 查询 序列 进行 切 分 ， 


的 ， 所 以 选取 特定 长 度 进行 子 序列 切 分 ， 并 利 ) 


然后 采用 改进 的 DTW 算法 
的 序列 子 段 连接 成 完整 的 序列 。 


该 算法 与 ONEX 相 比 ， 


复杂 度 较 低 


以 性 编码 。 在 查询 阶段 ， 
以 确保 长 子 序列 的 查询 速度 ， 
进行 相似 性 的 计算 ， 最 后 将 相似 


MONEX 算法 是 对 目前 最 先进 的 算法 ONEX 进行 的 改进 。 
查询 效率 提高 了 近 10 倍 ， 


准确 率 提 


高 了 0.03%。 虽 然 两 种 算法 的 准确 率 非 常 接近 ， 但 在 查询 长 


法 均 有 明显 提升 。 
1 ”预备 知识 


1.1 基本 定义 
定义 1 


D={X,X,,..., 


时 间 序 列 。 己 知 时 间 序 列 为 X，X=(%,%,…， 
表示 包含 n 个 真实 值 的 时 间 序 列 。D 为 时 间 序 列 数据 集 ， 
Xxw} 表示 包含 N 条 时 间 序 列 的 数据 集 。 


子 序 列 时 ，MONEX 算法 的 准确 率 和 效率 较 现 有 的 ONEX 算 


x) 


然而 现实 数据 集 往往 


有 高 维度 和 数据 量 大 的 特点 ， 因 


此 许多 现实 场景 并 不 是 直接 对 
序列 拆 分 成 较 短 的 子 序列 然后 再 


间 序 列子 序列 的 定义 。 
定义 2 时间 序 列 


Xz2(x,3...5 x), Xalid 


1<p<N 。 
在 进行 查询 时 ， 一 


子 序 列 


其 进行 分 析 ， 更 多 的 是 将 时 间 
进行 分 析 。 下 


两 条 序列 是 否 相 似 。 下 


定义 3 ”相似 性 阔 值 。 通 过 比较 
距离 或 DTW 距离 是 否 小 于 给 定 的 相 


两 个 时 间 序 列 是 否 和 


Dist e {ED, DTW} 。 


查询 算法 都 要 选择 合适 的 距离 度量 方法 。 本 文选 择 利用 
KREAM DTW 距离 进行 度量 ， 但 是 
序 普遍 存在 噪声 的 影响 ， 所 以 需要 使 
别 给 出 标准 化 欧 氏 距离 和 标准 化 DTW P 


看 介绍 一 下 时 


I9。 假 设 存 在 一 条 时 间 序 列 
是 长 度 为 1i， 起 始 位 置 为 j 的 时 间 序 
列子 序列 , 则 X, [.j]9G Xx ua) H. rH 


1<i<n ,0<j<sn-l， 


股 都 是 根据 设 定 的 相似 性 阔 值 来 判断 
四 给 出 相似 性 阔 值 的 定义 。 
时 间 
似 性 阔 值 ST， 进 而 判断 
目 似 ， 表 示 为 Dist(X,Y)<5T ， 中 


序列 X 和 YY 的 欧 氏 


其 


由 于 时 间 列 在 搜集 时 


AM 


Msi 
E 离 的 定义 。 


仁 化 距离 。 下面 分 


定义 4 标准 化 欧 氏 距离 。 给 定 两 个 序列 X 和 了 ， 标 准 


化 欧 氏 距离 定义 为 


ED(X,Y) 


l2 


xy (1) 


ED(X.Y) | 
Vn 


n 


2 


定义 $ 标准 化 动态 时 间 规 整 距 离 。 给 定 两 时 间 序列 X 


和 YY， 设 ms<n， 


2 


1.2 时间 序列 在 线 查 询 空 间 相似 组 
MONEX 算法 的 核心 是 建立 时 间 序 列 在 线 查 询 空 间 相似 


标准 化 DTW 距离 定义 为 


DTW (x,y) - DIWOCY) 


Q) 


组 。 


首先 证 明 ED 与 DTW 


之 间 存 如 


不 等 式 ， 从 而 能 够 


LL — HH 


时 间 序 列 查询 空间 相似 组 ， 简 称 相似 组 ， 是 由 候选 数据 
集 DD 中 特定 长 度 的 子 序列 根据 它们 之 间 的 相似 性 关系 组 成 的 。 
由 于 候选 数据 集 D 数据 量 巨大 , 所 以 将 候选 序列 只 按 特定 长 
度 切 分 而 不 是 切 分 成 所 有 可 能 的 子 序列 。 该 特定 长 度 根据 数 
据 集 的 大 小 按 一 定 比 例 选取 ， 长 度 记 为 length。 

定义 6 代表 序列 。 给 定 查询 空间 相似 组 S， 则 集合 S 
中 序列 的 逐 点 平均 值 被 定义 为 S 的 代表 ， 记 做 ， 即 对 于 所 有 
的 和 蕊 让 <sS Ri -avgX,[i.j] . 
定义 7 查询 空间 相似 组 。 将 数据 集 D 中 长 度 为 length 
的 子 序列 X,[i 诈 放 入 集合 TT 中, 假设 这 些 属于 了 的 子 序列 被 
分 别 放 在 具有 它们 各 自 代 表 Ri 的 相似 组 里 , 使 所 有 子 序列 处 
在 某 一 个 查询 空间 相似 组 里 ， 这 个 组 记 为 Gi 。 查 询 空间 相似 
a) 


任意 子 序列 X, [ij] 
于 相似 性 阔 值 ST 
vje[Ln-i], Vvpe[Ln], 


bo ECT FF 9) X, [i 7] SHARK R ARREA ANT ELSE 
T Xj] 与 其 他 代表 及 的 欧 氏 距离 ， 即 


ED(X,[i,j],Ri)<ED(X,[i,j],R) ， 其 Vje[l,n-i] , 


N 


其 代表 RE 的 欧 氏 距离 小 于 或 等 


«ST 
2 


的 一 半 ， 即 ED(X,[i,j],Ri)< 3ie[la], 


, 


rH die[Ln 


, 


Vpe[Ln], Vielse], g 表示 代表 的 个 数 。 
引 理 1 对 于 相同 查询 空间 相似 组 Gi 中 


其 标准 化 欧 氏 距离 总 是 小 于 或 等 于 阔 值 ， 


Ex, YeGi, 
证 明 给 出 同一 查询 空间 相似 组 中 的 两 个 长 度 相等 的 


序列 X -(x.....x;) 和 Yz(y....;) , 以 及 这 个 组 的 代表 R -(r....r) o 


两 个 子 序列 X 和 


BU ED(X,Y)<ST, 


根据 定义 7 RIAL, EDQGR)s H EDQ^R) S77. ， 带 入 到 定义 


4 中 可 得 


2 .ST 
=A] S— 
20 5n) 2 


想 要 证 明 EDX YST, REEN (x) «ST 。 
A GO 和 C45. 两边 同时 平方 可 知 


ii 4 
ED (X.R)- s, -5) < 
k=i 


: ST* 
ED? (Y. R)- (y -ny cw 
k=i 


(6) 


KH x,» HT EAR nn» 0 -n)*G-»)0, Br 
以 利用 柯 西 一 施 瓦 次 不 等 式 可 以 得 到 


(XK — y <2(x -ny +2(n -yW Ý o 将 这 个 结论 与 定义 4 和 式 (3) 
结合 可 得 


j j H 
x =y) < 2» (x, m y + 2 (v, m Y -ST? 
kzi kzi ki 


和 (4) 
0) 


> 


此 可 以 证 明 ED(X,Y)<ST 成 立 。 


定义 8 代表 空间 。 给 定数 据 集 D 中 ， 每 个 查询 空间 相 
以 组 Gi 对 应 的 代表 RE 以 及 相关 子 序列 刀 世 让 所 组 成 的 空间 ， 
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称 为 代表 空间 ， 记 为 R-space。 

1.3 基于 ED-DTW 三 角 不 等 式 的 时 间 规 整 检 索 
本 文 的 时 间 序 列 在 线 查 询 系统 框架 是 基于 ED 与 DTW 

距离 之 间 的 三 角 不 等 式 关 系 建立 的 。 由 这 个 关系 可 知 ， 若 查 

询 序 列 seq 与 查询 空间 相似 组 的 代表 序列 相似 ， 则 这 个 序列 
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与 此 同时 计算 出 每 个 查询 空间 相似 组 的 代表 并 将 这 些 代表 存 
入 代表 空间 R-space 之 中 。 将 查询 序列 也 按 长 度 length 切 分 
成 小 段 时 间 序 列 。 

b) 将 上 述 的 小 段 时 间 序 列 与 每 组 代表 序列 做 DTW 查询 ， 
得 到 与 每 段 时 间 序 列子 段 最 相似 的 代表 序列 以 及 对 应 的 查询 
空间 相似 组 。 


seq 与 该 组 中 所 有 的 子 序列 都 相似 ， 确 保 了 查询 能 够 在 压缩 
后 的 R-space 空间 上 进行 ， 而 不 是 在 整个 数据 集 上 对 查询 序 
列 进行 比较 ， 从 而 提高 查询 效率 。 换 言 之 ， 如 果 查 询 序列 和 
代表 及 之 间 的 标准 化 DTW 距离 小 于 或 等 于 相似 性 阔 值 的 一 
半 ， 那 么 该 相似 组 中 的 所 有 子 序列 与 该 查询 序列 都 相似 ， 
是 查询 序列 与 相似 组 中 的 所 有 子 序 列 的 标准 化 DTW 距离 都 
小 于 或 等 于 相似 性 阔 值 。 

引 理 2 给 定 Y=(y%%,…,%) 为 任意 相似 组 中 的 任意 子 序列 ， 
Y= Oreo Y) 为 该 组 的 代表 序列 ，X=G…, 羽 ,) 为 查询 序列 ， 则 
可 推出 : E 


E 


若 存 在 ED(Y.Y)s 


H Dwar w 


DTW(X,Y')<ST 。 


证 明 定义 3 和 引 理 1 可 得 


ED(.Y)- fc: xy sn (8) 


两 边 平方 可 得 
ED Y) e Yi Y sn (9) 


因为 DTW 距离 在 求解 过 程 中 需要 构造 矩阵 ， 所 以 现 需 
构造 矩阵 M(X,Y) 和 M(X,Y')。 因 为 在 和 矩阵 M(X,Y) 中 弯曲 路 
径 P 是 从 点 (1,1) 至 点 (n,n)， 那 么 相应 的 DTW 权重 最 多 
Hm nsr, 所 以 现在 只 需要 证 明 在 矩阵 MCX,Y ') 中 从 点 


(1,1) 至 点 (n,n) 的 弯曲 路 径 的 DTW 权重 最 多 为 2nST. 
1E 4 车 M(X,Y) 中 , 25 5E 5 I 路 径 P=(pi, pss. s Pis Pr) ， 
nxTz2n-l, pi;-(LD, pr =(n,n) ， Pi =(i, j) o 引 理 2 的 已 


MERI, frs -yw «m3 =-n3T， 将 公式 两 边 平方 可 得 


2 00 y) SST? (10) 


AK x-y HT EURZR A -y tyy = 0 yoQ; 0 ,所 以 


A H m yy — i PB oy ^ So o" U d& 8) 
G;-X* X2(x-y)y *2(y-») > Dl] 
Xe s 2» = + El (11) 
代入 式 C100 和 C9) 可 得 
S -y,Y €X2m' ST? AM. - FST (12) 


因为 3m57* 恒 小 于 等 于 2w?S7T* ， 所 以 不 等 式 成 立 ， 即 
DTW(X.Y) «sr 成 立 。 


2 MONEX 算法 


2.1 算法 思想 
MONEX 算法 从 构建 查询 空间 相似 组 ， 计 算 代表 距离 以 
及 连接 子 序列 这 三 个 步骤 执行 一 次 完整 查询 .具体 步 又 如 下 ; 
a) 将 候选 序列 按照 长 度 length. 切 分 成 所 有 可 能 的 子 序 
列 ， 根 据 这 些 子 序列 之 间 的 相似 关系 形成 查询 空间 相似 组 ， 


c) 将 上 述 步骤 所 得 的 查询 空间 相似 组 按照 对 应 的 小 段 
时 间 序 列 的 顺序 排列 ， 查 找 这 些 相 似 组 中 的 子 序列 是 否 可 以 
按 顺序 拼接 成 连续 的 序列 ， 若 可 以 拼接 则 拼接 起 来 。 
2.2 查询 空间 相似 组 构建 算法 
查询 空间 相似 组 构建 算法 是 为 了 寻找 长 度 为 length 的 子 
序列 所 在 的 相似 组 ， 然 后 获得 每 组 相应 的 代表 。 
a) 将 数据 集 D 中 现 有 时 间 序 列 分 解 成 长 度 为 length 的 所 
有 子 序列 。 为 去 除 连续 数据 所 产生 的 偏差， 使 用 
RANDOMIZE-IN-PLACE 方法 对 子 序列 进行 随机 排序 。 
b) 将 重新 排序 后 的 子 序列 集合 中 的 第 一 个 子 序列 指定 为 
第 一 组 的 成 员 ， 并 将 其 指定 为 第 一 组 的 代表 。 重 新 排序 后 选 
择 的 代表 可 以 确保 相似 组 不 受 所 提供 子 序列 顺序 的 影响 而 产 
生 偏 差 。 
c) 将 余下 的 子 序列 与 先前 的 代表 进行 比较 ， 即 计算 两 
之 间 的 欧 氏 距离 ， 选 择 具有 最 小 欧 氏 距离 的 一 组 ， 再 观察 
欧 氏 距离 是 否 满足 小 于 或 等 于 相似 性 阔 值 一 半 的 条 件 。 若 
件 全 部 符合 ， 则 将 该 子 序列 放 入 目前 的 查询 空间 相似 组 中 ; 
否则 将 其 放 在 新 的 组 中 ， 并 被 指定 为 新 组 的 代表 。 然 后 重 
该 步骤 ， 直 到 所 有 的 子 序列 都 放 入 到 对 应 的 查询 空间 相似 组 


算法 1 查询 空间 相似 组 构建 算法 
Input: HRD, HAERE ST, FEKE i- 
Output: 代表 {R}, 相 似 组 {G}。 
Begin 
{G} - C, (R) - 2 
随机 化 子 序列 
{Xj= 特 定 长 度 夺 下 的 所 有 子 序列 
minSM-0, mink-0, members[]=6 
for X, eX do 
if (G= Z ) then 


G&G, 
G, € X, [i j] /* 子 序列 长 度 为 i 起 始 位 置 为 j*/ 
G, members + [i j] ”/* 将 组 内 子 序列 的 下 标 计 入 到 members 
数组 中 */ 
R — X, |i. j] 
else 


for k=1 to Representative.count do 
minSM-ED(R, X, [i. j] ) 
mink-Representative index 
if ( minSM <ST/2 ) then 
Gnin €- X, [i j] 
Gnin members — [i, j] 
update Ri 
else 
G «Gy, 
Ra € X, j] 
End 
算法 的 复杂 性 是 衡量 算法 好 坏 的 重要 指标 ， 有 具有 较 高 人 
杂 度 的 算法 无 法 适应 于 对 大 型 数据 的 处 理 。 由 所 给 数据 可 知 ， 
本 文 提出 的 查询 空间 相似 组 的 复杂 度 为 O(nr?g) ， 其 中 : n 代 
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表 数 据 集中 时 间 序 列 的 数量 ; 
相似 组 个 数 。 
通常 情况 下 ， 初 始 的 时 间 序 列 都 


g 代表 查询 空间 


范 纯 龙 ， 等 : 基于 短 序列 分 组 和 拼接 策略 的 子 序列 快速 查询 算法 


1 代表 被 分 解 成 的 子 序列 个 数 ; 


X 


固定 


分 组 


过 程 中 还 要 将 这 些 序列 进行 切 分 ， 所 


以 时 


个 量 不 能 看 
增 减 ， 而 且 通 


Boone a 


g 的 大 小 可 以 


似 组 , 并且 


种 可 
并 的 第 (kt 


一 个 相似 组 的 大 


HD 组 中 的 


序列 。 


EZX, 那么 新 


望 是 几何 分 布 ， fts -K 


则 变量 g 对 应 的 复杂 度 为 o(JP) ， 


O(na2 ) e 


2.3 ”多 相似 性 参数 设置 


如 2.2 节 所 述 ， 本 文 的 代表 空间 是 


序列 个 数 n 随 着 数 
常情 况 下 ，n 比 1 大 很 多 。 
于 n Tae 此 时 的 复杂 度 可 概括 为 O(ng)。 
概率 来 论证 。 
条 新 加 入 的 时 间 
能 , 序列 XX 或 者 属于 k 个 组 之 中 的 一 个 序 
假设 这 些 事件 发 生 的 概率 是 相 


等 的 ， 那么 序列 X 在 新 的 相似 组 中 的 概率 是 一 。 


因此 可 以 ; 


假设 在 某 个 时 刻 


长 度 ， 而 且 在 
间 序 列 长 度 这 
据 集 的 大 小 而 
等 1 看 做 关 


k 个 相 
的 分 组 有 (k+1 
列 或 者 是 新 建 


w 


那么 新 建 


所 以 算法 整 


此 ， PtD)=n, 


体 的 复杂 度 为 


特定 


长 


度 的 子 序 列 构建 而 成 。 然 而 每 个 分 析 


对 相 


不 尽 相 


间 的 欧 
定义 10 相似 空 


E], muU WE ST 和 子 序列 和 
制定 符合 它们 要 求 的 查询 空 
定义 9 ”代表 距离 。 在 R-space rj 
氏 距 离 定义 为 代表 距离 D. 
zje SP- us 是 一 个 概念 上 的 空 


其 对 应 的 规模 下 
值 为 ST。 

基于 相似 性 
相应 的 相似 空间 。 


会 合 


在 长 度 为 length 
新 的 相似 组 时 , WER 


此 时 阀 值 记 为 STfinal。 
STfinal=0.78， 也 就 是 说 ， 


组 中 $ 


等 


BI ELSE 


2r BREL d 


， 子 序列 长 度 为 特定 长 度 


阔 值 可 以 为 每 个 特定 长 度 的 子 
一 般 来 说 ， 如 果 ST 2sT-D.- 
成 一 个 新 的 相似 组 。 现 有 两 个 指标 SThalf 和 
的 情况 下 ， 


值 记 


F 0.5 


E [8] AHA o 


FF PR ECRIRE AE 
似 程度 的 要 求 


的 特定 长 度 length 来 


, BJ Di, - ED( 


当 计 算出 的 相似 组 
为 SThalf; 当 全 部 的 相 
例如 ， 现 有 特定 长 度 i 
长 度 为 i 的 子 序列 组 
时 表明 相似 组 有 一 半 


于 0.78 或 者 更 高 时 则 表明 全 部 合 
列 的 查询 ， 将 候选 序列 分 解 成 所 有 长 度 的 子 序列 


并 了 。 


length, #44 


H, 每 两 个 代表 Ri 和 Gi 2 


Ri,Ri) 。 
间 , 在 
ER 


序列 身 


,两 个 相似 组 就 


STfinal, 
有 一 半 合 并 成 
似 组 合并 时 ， 
> SThalf-0.5, 
成 的 所 有 相似 
合并 了 ， 当 新 


2.4 ”基于 查询 空 


pus 


"m 
的 
f 


rH 


通过 提供 目标 查询 
a) 查 询 系 统 会 返回 与 用 
与 查询 序列 


G'-G 
else if ST «ST then 
split groups G 
else 
if ST «D, then 
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merge pair of groups with this condition 
else if ST'2D, then 
if ST —ST2D, then 
merge groups with this condition 
else if ST «D, then 


G-G 
end 


s 间 相似 


组 的 查询 过 程 


本 文 所 看 


究 的 查询 属于 上 


j 户 驱动 的 查询 类 型 ， 即 分 析 师 


列 ， 并 且 长 度 


序列 进行 查询 。 这 种 查询 分 为 两 种 类 型 : 


户 提供 的 查询 序列 最 相似 的 时 间 
相同 。 例 如 ， 用 户 和 希望 在 特定 


时 间 段 内 查询 与 苹果 


询 序列 是 数据 集中 存在 的 序列 。 


股票 波动 类 似 的 股票 ， 这 种 情况 下 ， 


b) 用 户 可 以 自 


La 
y 


提 


整 


Zh 


IRZ. 


才 间 序列 子 


查询 。 


的 最 


在 查询 
出 将 查询 


长 子 序列 时 ， 


ci 
该 序列 的 最 佳 匹配 ， 这 样 


而 是 查询 出 灾 近 的 序列 。 


所 需要 的 股票 波动 ， 并 查询 数据 集 
的 序列 可 能 不 存在 于 数据 集中 ， 


通常 情况 下 ， 第 一 种 情形 的 查 


为 了 提高 算法 效率 ，MONEX 算法 


序列 切 分 成 等 长 的 查询 序列 子 段 ， 即 把 长 序列 分 
成 若干 个 短 序列 进行 查询 ， 然 


后 再 将 查询 到 的 短 序列 拼接 


与 原 序列 长 度 相 等 或 相近 的 序列 。 下 
段 进行 定义 。 
时 间 序 列子 段 , 将 查询 


的 1 时 间 序 列子 段 ， 表 示 为 X,[m]， 其 


n 为 查询 序列 长 度 。 
查询 空 
紧凑 序列 组 ， 查 询 系统 则 在 相 


定义 11 


数 ， 
如 1.2 节 所 介绍 ， 


体 步 又 如 下 : 


a) 


为 完成 长 子 序 
sk, 


这 里 将 特定 长 度 length 173 10. 20. 50. 80 和 100 五 种 。 


将 查询 序列 按照 特定 长 
最 后 小 于 长 度 length 的 子 段 可 以 忽 


MIRRA R, X) 


FAIR m 个 长 度 为 


中 1<ms 了 ， 且 m 为 正 


间 相 似 组 是 基于 ED 所 形成 的 


以 组 上 应 用 时 间 规 整 策 略 进行 


度 length 切 分 成 查询 序列 子 段 ， 
ANT. 


b) 在 组 间 进 行 查找 ， 


计算 出 每 一 个 时 间 序列 子 段 与 每 组 


代表 之 间 的 DTW SE Bj, 记 为 dist。 选 出 每 一 子 段 对 应 的 最 小 


IIT 75 numk 组 中 的 子 序列 是 否 能 


组 中 , 并 获取 该 组 的 序号 Gm 和 代表 


与 numk+1 组 中 的 


子 序列 拼接 起 来 ， 找 到 前 后 组 中 能 够 拼接 成 查询 序列 长 度 的 


d) 找 出 上 述 拼接 起 来 的 序列 其 每 段子 序列 与 该 子 序列 所 


谭 列 的 标号 即 可 


闻 的 欧 氏 距离 〈 这 个 距离 在 构建 相似 组 时 已 经 


[获取 ), 选取 欧 氏 距离 最 


长 度 length, 数 组 members. 


根据 长 度 length 的 不 同 ,分 别 计算 出 对 应 的 SThalf 和 STfinal 。 dist 按 顺 序 存 入 bestun 数 
根据 SThalf 和 STfinal 这 两 个 参数 将 相似 等 级 划分 如 下 : 序号 Rom。 
a)“ 严 格 ”等 级 ，ST<SThalf; c) # 
b)“ 中 间 ” 等 级 ，SThalf <ST<STfinal; 
c)“ 模 糊 ” 等 级 ，ST>STfinal。 子 序列 。 
根据 参数 相似 等 级 ， 以 本 文 使 用 数据 为 例 ， 如 果 分 析 师 
要 求 给 出 子 序列 长 度 为 让 的 “严格 ”等 级 的 相似 性 阔 值 范围 的 ”在 组 的 代表 之 
推荐 ， 则 推荐 值 在 [0,0.6] 内 。 分 析 师 在 此 区 间 内 选择 的 任何 ” 计算 过 , 只 需 通过 子 
值 都 会 返回 “严格 ”相似 性 的 结果 。 小 的 一 条 序列 作为 最 终 查 询 结 果 。 
在 该 区 间 中 选择 较 低 的 值 则 会 导致 每 个 查询 空间 相似 组 算法 3 查询 处 理 器 
中 的 子 序 列 有 更 “严格 ”的 相似 性 。 Input: 查询 序列 Q, 特 定 
算法 ^S B E Output: 拼接 完成 的 序列 {X}。 


Input: 相似 性 阔 值 


ST, 


代表 距离 D. o 


Output: 查询 空间 相似 组 {G'} 。 


Begin 
GOO 
if ST'==ST then 


Begin 


{X}= Z , m-n/i, numk- 


X, -(0.0,...0,]) 
/* 查 询 序列 按照 特定 长 度 
for q=1 to m do 


o 


i 切 分 成 查询 序列 子 段 */ 
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3 


评 


a) 使 用 标准 


进 
保 
序 
不 


该 


Core i5-3470 3.2 GHz，4 GB 内 存 的 
现 。 


dist, = DTW( X,,Gi.R,) 


/* 计 算 每 一 个 X, 分 别 与 每 组 的 代表 的 DTW 距离 */ 


numk=best distance index 


/* 选 出 每 一 个 X 对 应 的 最 小 距离 */ 


best my *— min (dist, } 
Ri € Ry 
Grmi 4 Gr 


end 
for k=1 to m do 
if ( Gum- Mmembers.[i, j +i] && Gum -members.[i, j])==1 ) 
/* 判 断 第 numk 组 中 的 X, [ij] 与 第 numke1 组 中 的 XX, [i j] JE S EA 
接 */ 
{Xx} e x, [2i j] 


end 


end 


实验 结果 及 分 析 
两 个 方 


本 文 在 真实 数据 集 上 ， 从 查询 时 间 和 准确 率 两 TES 
f; MONEX 算法 的 性 能 ， 并 与 已 有 的 两 种 方法 进行 比较 。 
的 DTW 距离 对 数据 集中 每 条 子 序列 与 查询 序列 
行距 离 计算 ， 然 后 找 出 距离 最 小 的 子 序列 ， 该 算法 能 够 确 
计算 出 最 佳 的 查询 结果 ; b)JONEXI19] 方 法 ， 该 方法 首先 将 
列 切 分 成 所 有 可 能 长 度 的 子 序列 ， 然 后 用 聚 类 算法 分 别 将 
同 长 度 的 子 序列 数据 降 维 ， 最 后 在 降 维 数据 中 进行 查询 
方法 在 查询 多 维 数据 时 有 较 好 的 效果 。 

实验 环境 为 Visual 2010, 使 用 语言 为 C++, 实验 在 Inter? 
Windows7 操作 系统 上 实 
本 文 从 最 大 的 公共 时 间 序 列 集合 UCR time series 


collection 中 选取 数据 。 选 取 的 数据 集 有 Face(four)、Symbols、 
MALLAT、ECG5000 和 HandOutlines， 数 据点 个 数 分 别 为 
8400. 39800. 56320. 70000 和 1 002 330。 为 了 使 查询 效 


果 
找 


3.1 


进 
不 


D 
询 
" 
rH 
作 
子 


b) 记 录 将 20 条 不 同 长 度 子 序列 进行 查询 


均 


此 
图 


DTW 


应 
统 
间 


更 加 准 


出 每 一 
条 序列 X-(x,.3..5 


查询 时 间 比 对 
本 文 利 用 标准 DTW 和 ONEX 算法 与 本 文 MONEX 算法 
行 比 对 。 测 试 将 从 不 同 规格 候选 序列 数据 集 的 查询 时 间 和 
同 长 度 查 询 查询 序列 的 查询 时 间 两 个 方面 进行 。 
在 测试 不 同 规格 候选 序列 数据 集 的 查询 时 间 时 ， 需 要 将 
询 20 次 的 平均 响应 时 间作 为 查询 时 间 。 此 外 , 为 了 测试 查 
序列 在 数据 集中 和 不 在 数据 集中 的 查询 效果 ， 首 先 从 候选 
据 集中 截取 10 条 不 同 长 度 的 子 序列 , 然后 再 从 其 他 数据 集 
截取 另外 10 条 不 同 长 度 的 子 序列 ， 最 后 将 这 20 条 子 序列 
为 查询 序列 集 。 查 询 时 间 的 计算 共 分 两 个 步骤 : a) 将 每 条 
序列 进行 5 次 查询 , 计算 其 平均 时 间作 为 一 次 查询 的 时 间 ; 
的 时 间 , 并 计算 出 平 


确 ， 需 要 将 每 一 条 序列 进行 归 一 化 。 具 体 做 法 为 : 
条 序列 中 的 最 小 值 (min) 和 最 大 值 (max)， 对 于 任 ; 


意 
x) VH MERI A SU LI 


Xi — min 


时 间作 为 该 算法 的 查询 时 间 。 
MONEX 算法 的 查询 时 间 比 标准 DTW 算法 快 很 多 ， 因 
在 图 1 中 纵 轴 用 对 数 来 表示 时 间 , 而 且 时 间 的 单位 ms。 如 
1 所 示 ， 本 文 提出 的 MONEX 算法 查询 时 间 始 终 优 于 标准 
查询 算法 几 个 数量 级 ， 并 且 比 ONEX 系统 有 更 短 的 响 
时 间 。 可 以 看 出 ， 在 数据 集 较 小 的 情况 下 ，ONEX 与 本 系 
的 查询 时 间 不 相 上 下 ， 但 随 着 候选 数据 集 的 增 大 ， 查 询 时 
的 差异 变 得 明显 ， 本 系统 的 平均 查询 速度 比 ONEX 快 10 


倍 。 
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在 测试 查询 查询 序列 的 长 度 对 查询 效率 的 影响 时 ， 本 文 
从 HandOutlines 数据 集中 截取 20 条 长 度 由 小 到 大 的 子 序 列 
作为 查询 序列 集 ， 子 序列 的 长 度 范 围 在 20~400 间 。 将 每 条 
子 序列 进行 5 次 查询 ， 计 算出 平均 时 间作 为 该 查询 序列 的 查 
询 时 间 。 
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Fig.l Response time 
如 图 2 所 示 ， 相 同 的 候选 数据 集 下 ， 随 着 查询 序列 长 


曾 加 ， 子 序列 查询 时 间 


的 差异 变 得 


明显 ， 但 MONEX 算法 的 
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查询 时 间 始 终 优 于 ONEX 算法 ， 并 且 查 询 序列 越 长 ,查询 速 
度 的 优势 越 明 显 。 
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Response time of sample sequences at different lengths 


3.2 查询 准确 率 比 对 
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的 逼近 程度 。 对 此 结合 FT 

中 对 于 对 比 路 径 准 确 性 的 定义 以 及 文献 [7]9 
的 定义 ， 将 MONEX 算法 准确 率 的 计算 定义 为 
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返回 的 距离 ， 


距离 optimDist 已 是 最 相似 序列 间 
法 由 于 查询 偏差 将 产 
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而 改进 的 查询 算 
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法 返回 的 


近似 距离 


于 0。 查 询 准 确 率 如 表 1 所 示 ， 


率 如 表 2 所 示 。 
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录用 定稿 范 纯 龙 ， 等 
表 2 不 同 长 度 查 询 序列 查询 准确 率 
Table 2 Query accuracy of different lengths sequences 
准确 率 20 50 100 200 400 
MONEX 97.06 97.34 97.75 98.03 97.93 
ONEX 97.12 97.25 97.18 97.21 97.14 


进行 查询 。 
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表 1 和 2 可知， 本 系统 


消耗 和 空间 占用 情况 。 
情况 下 ， 本 系统 离线 构建 查询 空间 相似 组 的 时 间 。 
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H MONEX 系统 的 准确 率 有 着 明显 提升 。 
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在 不 同 相 似 性 闵 值 下 所 形成 的 代表 数量 可 以 显示 系统 在 
品 预 处 理 时 生成 信息 的 大 小 。 如 图 4 所 示 ， 相 似 性 闵 值 越 大 ， 
ce 代表 空间 中 存储 的 代表 数 越 少 。 表 3 显示 了 在 阔 值 为 0.2 的 
O 情况 下 ， 各 种 数据 集中 代表 的 个 数 、 切 分 子 序列 的 个 数 以 及 
CO 空间 占用 大 小 。 

le 表 3 特定 数据 集 下 的 代表 数 ， 子 序列 数 及 占用 空间 

LO Table3 Number of representatives under specific data set, number of 
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4 ”结束 语 


本 文 提出 了 改进 的 时 间 序 列 在 线 查 询 算法 MONEX, iX 
方法 是 基于 ONEX 算法 的 改进 算法 。 实 验 结果 表明 ， 随 着 候 
选 数 据 集 的 增 大 ， 查 询 时 间 的 差异 变 得 明显 ， 本 系统 的 查询 
速度 比 ONEX 快 10 倍 ， 并 且 在 相同 的 候选 数据 集 下 ， 随 着 
查询 序列 长 度 增 大 ，MONEX 算法 在 查询 时 间 上 的 优势 也 更 
加 明显 ， 与 此 同时 查询 的 准确 率 比 ONEX 系统 高 出 0.03% 。 
前 查询 的 最 相似 子 序列 长 度 必 须 与 查询 序列 保持 一 致 ， 


n 


但 在 实际 查询 中 ， 最 相似 的 子 序列 的 长 人 
等 长 的 ， 这 可 能 影响 查询 的 准确 率 ， 使 查询 具有 局 限 性 。 在 
今后 的 工作 中 ， 可 以 改变 查询 序列 的 分 割 策略 ， 使 其 能 够 应 
对 不 同 长 度 的 查询 。 
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